🤔Как принять решение: удалять выбросы или оставлять их
Всё зависит от природы выбросов — являются ли они реальными редкими случаями или ошибками в данных.
🔹 Если выброс отражает действительно существующее, но редкое наблюдение (например, необычно высокая цена на товар, которая действительно была на рынке), то удаление такого значения может привести к модели, игнорирующей важные, хоть и редкие, сценарии.
🔹 Если же выброс возник из-за ошибки ввода, дублирования или другого рода артефакта — его можно удалить без особого риска.
✅Как принять обоснованное решение
Постройте три версии модели: 1. С выбросами. 2. Без выбросов. 3. С обработанными выбросами (например, винзоризацией или логарифмической трансформацией).
Сравните их по кросс-валидации: точности, стабильности, интерпретируемости. Выберите подход, который даёт наилучший баланс между производительностью и объяснимостью.
📌Контекст имеет значение
В медицине, например, выброс может указывать на критическое состояние пациента — и его ни в коем случае нельзя игнорировать. А в пользовательских логах выброс может быть признаком бот-активности.
🤔Как принять решение: удалять выбросы или оставлять их
Всё зависит от природы выбросов — являются ли они реальными редкими случаями или ошибками в данных.
🔹 Если выброс отражает действительно существующее, но редкое наблюдение (например, необычно высокая цена на товар, которая действительно была на рынке), то удаление такого значения может привести к модели, игнорирующей важные, хоть и редкие, сценарии.
🔹 Если же выброс возник из-за ошибки ввода, дублирования или другого рода артефакта — его можно удалить без особого риска.
✅Как принять обоснованное решение
Постройте три версии модели: 1. С выбросами. 2. Без выбросов. 3. С обработанными выбросами (например, винзоризацией или логарифмической трансформацией).
Сравните их по кросс-валидации: точности, стабильности, интерпретируемости. Выберите подход, который даёт наилучший баланс между производительностью и объяснимостью.
📌Контекст имеет значение
В медицине, например, выброс может указывать на критическое состояние пациента — и его ни в коем случае нельзя игнорировать. А в пользовательских логах выброс может быть признаком бот-активности.
At a time when the Indian stock market is peaking and has rallied immensely compared to global markets, there are companies that have not performed in the last 10 years. These are definitely a minor portion of the market considering there are hundreds of stocks that have turned multibagger since 2020. What went wrong with these stocks? Reasons vary from corporate governance, sectoral weakness, company specific and so on. But the more important question is, are these stocks worth buying?
Newly uncovered hack campaign in Telegram
The campaign, which security firm Check Point has named Rampant Kitten, comprises two main components, one for Windows and the other for Android. Rampant Kitten’s objective is to steal Telegram messages, passwords, and two-factor authentication codes sent by SMS and then also take screenshots and record sounds within earshot of an infected phone, the researchers said in a post published on Friday.
Библиотека собеса по Data Science | вопросы с собеседований from us